基于请求与应答通信机制和局部注意力机制的多机器人强化学习路径规划方法

doi:10.11772/j. issn.1001-9081.2023020193

《计算机应用》唯一官方网站

• • 下一篇

基于请求与应答通信机制和局部注意力机制的多机器人强化学习路径规划方法

邓辅秦¹,官桧锋¹,谭朝恩²,付兰慧²,王宏民³,林天麟⁴,张建民³

1. 五邑大学
2. 五邑大学智能制造学部
3. 广东省江门市迎宾大道99号五邑大学
4. 香港中文大学(深圳)

收稿日期:2023-02-28 修回日期:2023-05-17 发布日期:2023-08-14 出版日期:2023-08-14
通讯作者: 张建民
基金资助:
动态开放环境下基于5G的异构多机器人自主协同技术;深圳市科技计划资助项目;深圳市人工智能与机器人研究院探索性研究项目;动态环境下异构多机器人自主协同技术开发

multi-robot reinforcement learning path planning method based on request-response communication mechanism and local attention mechanism

Received:2023-02-28 Revised:2023-05-17 Online:2023-08-14 Published:2023-08-14

摘要/Abstract

摘要： 动态环境下的多机器人路径规划在多机器人领域有着较大的实用价值和学术价值。在动态环境下，为了降低多机器人路径规划的阻塞率，在深度强化学习算法Actor-Critic框架下，本文设计出一种基于请求与应答通信机制和局部注意力机制的分布式深度强化学习路径规划方法(DCAMAPF)。在Actor网络，基于请求与应答通信机制，每个机器人请求视野内的其他机器人的局部观测信息和动作信息，进而规划出协同的动作策略。在Critic网络，每个机器人基于局部注意力机制将注意力权重动态地分配到在视野内成功应答的其他机器人局部观测和动作信息上。与传统动态路径规划方法D* Lite、最新的分布式强化学习方法Mapper和最新的集中式强化学习方法AB-Mapper相比，DCAMAPF在离散初始化环境，阻塞率差值均约缩小了6.91%、4.97%、3.56%；在集中初始化环境下能更高效地避免发生阻塞，阻塞率差值均约缩小了15.86%、11.71%、5.54%，并降低占用的计算缓存。

关键词: 多机器人路径规划, 深度强化学习, 注意力机制, 通信

Abstract: Multi-agent path planning in a dynamic environment has great practical value and academic value in the field of multi-agent. In order to reduce the blocking rate of multi-agent path planning in a dynamic environment, under the framework of the deep reinforcement learning algorithm Actor-Critic, In this paper, a distributed multi-agent path planning method based on request and response communication mechanism and local attention mechanism is designed, named Distributed Communication and local Attention Based Multi-agent Path Finding(DCAMAPF). In the Actor network, based on the request and response communication mechanism, each agent requests the local observation information and action information of other agents in the field of view, and then plans a coordinated action policy. In the Critic network, each agent dynamically assigns attention weights to the local observation and action information of other agents that successfully respond within the field of view based on the local attention mechanism. Compared with the traditional dynamic path planning method D* Lite, the latest distributed reinforcement learning method Mapper, and the latest centralized reinforcement learning method AB-Mapper, in the discrete initialization environment of DCAMAPF, the difference in blocking rate was reduced by about 6.91%, 4.97%, and 3.56%. In the centralized initialization environment, blocking can be avoided more efficiently, and the difference in blocking rate is reduced by about 15.86%, 11.71%, and 5.54%, and less computing cache is occupied.

Key words: Keywords: Multi-agent path planning, deep reinforcement learning, attention mechanism, communication

邓辅秦官桧锋谭朝恩付兰慧王宏民林天麟张建民. 基于请求与应答通信机制和局部注意力机制的多机器人强化学习路径规划方法[J]. 计算机应用, DOI: 10.11772/j. issn.1001-9081.2023020193.

[1]	陈天华, 朱家煊, 印杰. 基于注意力机制的鸟类识别算法[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1114-1120.
[2]	许立君, 黎辉, 刘祖阳, 陈侃松, 马为駽. 基于3D‑Ghost卷积神经网络的脑胶质瘤MRI图像分割算法3D‑GA‑Unet[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1294-1302.
[3]	袁泉, 陈昌平, 陈泽, 詹林峰. 基于BERT的两次注意力机制远程监督关系抽取[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1080-1085.
[4]	唐睿, 岳士博, 张睿智, 刘川, 庞川林. UAV协助下非正交多址接入使能的数据采集系统中能效优化机制[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1209-1218.
[5]	尤昕源, 王恒. 基于门控膨胀卷积循环网络的单声道语音增强[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1317-1324.
[6]	黄荣, 宋俊杰, 周树波, 刘浩. 基于自监督视觉Transformer的图像美学质量评价方法[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1269-1276.
[7]	肖斌, 甘昀, 汪敏, 张兴鹏, 王照星. 基于端口注意力与通道空间注意力的网络异常流量检测[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1027-1034.
[8]	杨先凤, 汤依磊, 李自强. 基于交替注意力机制和图卷积网络的方面级情感分析模型[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1058-1064.
[9]	王海涵, 朱焱. 融合反讽机制的攻击性言论检测[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1065-1071.
[10]	赵晓焱, 匡燕, 王梦含, 袁培燕. 基于知识图谱的端到端内容共享机制[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 995-1001.
[11]	罗华亮, 李全忠, 张旗. 融合信息通信和空中计算的认知无线网络鲁棒资源分配优化[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1195-1202.
[12]	郭洁, 林佳瑜, 梁祖红, 罗孝波, 孙海涛. 基于知识感知和跨层次对比学习的推荐方法[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1121-1127.
[13]	张鹏飞, 韩李涛, 冯恒健, 李洪梅. 基于注意力机制和全局特征优化的点云语义分割[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1086-1092.
[14]	董永峰, 白佳明, 王利琴, 王旭. 融合先验知识和字形特征的中文命名实体识别[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 702-708.
[15]	江锐, 刘威, 陈成, 卢涛. 非对称端到端的无监督图像去雨网络[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 922-930.

基于请求与应答通信机制和局部注意力机制的多机器人强化学习路径规划方法

multi-robot reinforcement learning path planning method based on request-response communication mechanism and local attention mechanism

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics